针对词向量语义信息不完整以及文本特征抽取时的一词多义问题,提出基于BERT(Bidirectional Encoder Representation from Transformer)的两次注意力加权算法(TARE)。首先,在词向量编码阶段,通过构建 Q 、 K 、 V 矩阵使用自注意力机制动态编码算法,为当前词的词向量捕获文本前后词语义信息;其次,在模型输出句子级特征向量后,利用定位信息符提取全连接层对应参数,构建关系注意力矩阵;最后,运用句子级注意力机制算法为每个句子级特征向量添加不同的注意力分数,提高句子级特征的抗噪能力。实验结果表明:在NYT-10m数据集上,与基于对比学习框架的CIL(Contrastive Instance Learning)算法相比,TARE的F1值提升了4.0个百分点,按置信度降序排列后前100、200和300条数据精准率Precision@N的平均值(P@M)提升了11.3个百分点;在NYT-10d数据集上,与基于注意力机制的PCNN-ATT(Piecewise Convolutional Neural Network algorithm based on ATTention mechanism)算法相比,精准率与召回率曲线下的面积(AUC)提升了4.8个百分点,P@M值提升了2.1个百分点。在主流的远程监督关系抽取(DSER)任务中,TARE有效地提升了模型对数据特征的学习能力。
针对通用型无参考图像质量评价(NR-IQA)算法,提出一种基于伪参考图像显著性深层特征的评价算法。首先,在失真图像的基础上,利用微调的ConSinGAN模型生成相应的伪参考图像作为失真图像的补偿信息,弥补NR-IQA算法缺少真实参考信息的不足;然后,提取伪参考图像的显著性信息,将伪参考显著性图像与失真图像输入到VGG16网络中提取深层特征;最后,融合二者的深层特征并将其映射到由全连接层组成的回归网络中,从而产生与人类视觉一致的质量预测。为了验证算法的有效性,在四个大型公开的图像数据集TID2013、TID2008、CSIQ与LIVE上进行实验,结果显示所提算法在TID2013数据集上的斯皮尔曼秩相关系数(SROCC)比H-IQA算法提升了5个百分点,比RankIQA算法提升了14个百分点,针对单一失真类型也具有稳定的性能。实验结果表明,所提算法总体表现优于现有主流全参考图像质量评价(FR-IQA)和NR-IQA算法,与人类主观感知表现一致。
时空数据作为一种同时具有时间维度及空间维度的数据类型,被广泛应用于供应链管理、电子商务等领域,它的完整性及安全性在实际应用中具有重要意义。针对目前时空数据集中式存储方式存在数据不透明且易被篡改的问题,将区块链技术的去中心化、防篡改、可追溯等特性与时空数据管理相结合,提出面向时空数据的区块链构建及查询方法。首先,提出一种基于改进图型区块链(Block?DAG)的时空数据区块链架构ST_Block?DAG;其次,为了提升时空数据的存储及查询效率,在ST_Block?DAG区块链内部采取基于四叉树及单链表的结构存储时空数据;最后,在ST?Block?DAG存储结构基础上实现了多种时空数据查询算法,如单值查询、范围查询等。实验结果表明,与STBitcoin、Block?DAG以及STEth相比,ST_Block?DAG的时空数据处理效率提升了70%以上,时空数据综合查询性能提升了60%以上。所提方法能够实现时空数据的快速存储及查询,可以有效支持时空数据的管理。
云模型相似性是用来度量同类概念不同语言值的多个云之间关联程度的方法,相似云及其度量分析方法的提出是对云模型理论的扩展。针对目前相似性度量方法中时间复杂度过高和结果不稳定等不足,提出了一种基于云模型重叠度的相似性度量算法。首先,根据云模型期望、熵、超熵三个数字特征,定义两个云模型的位置关系和逻辑关系;其次,利用两个云的位置和形状特性,计算得到它们间的重叠度;最后,结合云模型重叠度与相似度的关系,将云模型的相似性度量转化为相应重叠部分的定量化描述。通过对时间序列分类实例的应用,验证了该算法在保证结果稳定度和正确率的前提下,与目前时间消耗较低的云模型相似度计算方法(LICM)相比,计算复杂度降低了50%,表明该算法具有可行性和有效性。
针对专业领域中科技项目的关键词提取和项目词库建立的问题,提出了一种基于语义关系、利用共现矩阵建立项目关键词词库的方法。该方法在传统的基于共现矩阵提取关键词研究的基础上,综合考虑了关键词在文章中的位置、词性以及逆向文件频率(IDF)等因素,对传统算法进行改进。另外,给出一种利用共现矩阵建立关键词关联网络,并通过计算与语义基向量相似度识别热点关键词的方法。使用882篇电力项目数据进行仿真实验,实验结果表明改进后的方法能够有效对科技项目进行关键词提取,建立关键词关联网络,并在准确率、召回率以及平衡F分数(F1-score)等指标上明显优于基于多特征融合的中文文本关键词提取方法。